Variables numéricas: Medidas de resumen

R para Ciencia de Datos en Salud:
Análisis Descriptivo e Inferencia Estadística

Percy Soto-Becerra M.D., M.Sc(c)

InkaStats Data Science Solutions | Medical Branch
@github/psotob91

Medidas de resumen para variables numéricas

Análisis descriptivo de variable numérica

  • Medias de tendencia central
    • Media
    • Mediana (es también medida de posición)
    • Moda (no es usual)
  • Medidas de posición
    • Cuantiles (en general)
    • Mediana = percentil 50 (es también medida de tendencia central)
    • Percentil 25 (p25)
    • Percentil 75 (p75)
  • Medidas de dispersión
    • Rango (máximo - mínimo)
    • Varianza / Desviación estándar
    • Rango intercuartílico (p75 - p25)
  • De acuerdo a moda:
    • Unimodal (una sola moda)
    • Multimodal (p. ej, bimodal)
    • Uniforme (no moda)
  • De acuerdo a simetría
    • Simétrica
    • Asimétrica (o ‘sesgada’)
      • Positiva (A la derecha)
      • Negativa (A la izquierda)
  • De acuerdo a curtosis:
    • Leptocúrtica
    • Mesocúrtica
    • Platicúrtica



Medidas de resumen

Para una variable de interés \(X\), se tiene la muestra conformada por \(n\) elementos \(x_1, x_2, x_3, ..., x_n\) entonces podemos resumir esta muestra de valores mediante los siguientes estadísticos:

  • Media aritmética: \(\bar{x}\)

  • Media geométrica: \(\bar{x}_g\)

  • Otras medias: truncada y armónica

  • Mediana: \(Med(x)\)

  • Moda: \(Moda(x)\)

  • Percentiles: \(P25\) y \(P75\)

  • Cuartiles: \(Q1\), \(Q2\) y \(Q3\)

  • Varianza y desviación estándar: \(Var(x)\) y \(DE(x)\)

  • Rango

  • Rango intercuartílico: \(RIQ\)

  • Coeficiente de variación: \(CV\)

Medidas de resumen: Tendencia central

  • La media artimética de una lista de números, es la suma de estos números dividida por la cantidad de esto y está dada por la siguiente expresión:

\[\bar{x} = \frac{x_1 + x_2 + x_3 + ... + x_n}{n} = \frac{\sum_{i = 1}^{n}x_i}{n}\]

Ejemplo

Sean las siguientes edades en años: \(36, 4, 75, 45, 50\), su media aritmética es

\[\frac{36 + 4 + 75 + 45 + 50}{5} = \frac{210}{5} = 42\]

  • Forma de promedio útil para conjuntos de números positivos que se desean interpretar de acuerdo a su producto en vez de su suma.

  • Es la raíz \(n-ésima\) del producto de los números y está dada por la siguiente expresión:

\[\bar{x}_{g} = \sqrt[n]{x_1x_2x_3...x_n} = (x_1x_2x_3...x_n)^{\frac{1}{n}} = (\prod_{i = 1}^{n}x_i)^{\frac{1}{n}}\]

Ejemplo

Sean las siguientes edades en años: \(36, 4, 75, 45, 50\), su media geométrica es

\[(36 \times 4 \times 75 \times 45 \times 50) ^ {\frac{1}{5}} = \sqrt[5]{24300000} = 30\]

Media truncada

  • Media truncada o recortada (en inglés trimmed mean) es una medida de tendencia central similar a la media aritmética que se calcula luego de descartar las partes de ambos extremos de la distribución.

  • Típicamente se descartan las mismas proporcions de datos en los extremos.

  • En la mayoría de aplicaciones se descartan entre 5% a 25%.

  • En algunas regiones también la conocen como media windsoriana.

  • La usan mucho en eventos de competición para eliminar la influencia de las calificaciones extremas de los jueces

Media armónica

  • Es un tipo de medida promedio conocida por ser una de las medias pitagóricas.

  • Se expresa como el recíproco de las medias aritméticas de los recíprocos de un conjunto dado de observaciones.

\[H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} = \frac{n}{\sum_{i=1}^{n}{\frac{1}{x_i}}} = (\frac{\sum_{i=1}^{n}x_i^{-1}}{n})^{-1} \]

  • Es más útil en situaciones donde se desea promediar tasas o estadístico similares basados en medidas de razón.
  • Sean \(x_{(1)}, x_{(2)}, x_{(3)}, ..., x_{(i)},..., x_{(n)}\) estadísticos de orden, es decir cada \(x_{(i)}\) representa al \(i-ésimo\) valor más pequeño de la muestra, entonces la mediana está dada por la siguiente expresión:

\[ Med(x) = \begin{cases} x_{(n+1)/2} & \text{si n es impar} \\ \frac{x_{(n/2)}+x_{(n/2+1)}}{2} & \text{si n es par} \end{cases} \]

Ejemplo

Luego de ordenar de menor a mayor, tenemos \(4, 36, 45, 50, 75\). Como \(n = 5\) es impar, entonces

\[Med(x) = x_{(5+1)/2} = x_{(3)} = 45\]

  • En otras palabras, es el valor que separa la mitad superior de la mitad inferior de una muestra de datos.

  • Es el valor que aparece más frecuentemente en los datos.

    • De poca utilidad en variables numéricas.
  • No necesariamente es única.

Unimodal

Multimodal

Multimodal extremo: Uniforme

  • En resumen, la visualización geométrica de la media, mediana y moda para una distribución unimodal es la siguiente.

    • Moda: Valor más frecuente (punta más alta de distribución)

    • Mediana: Valor que divide datos en 50% (mitad de la distribución)

    • Media: Centro de gravedad (punto en el que los “pesos” de ambos lados se igualan)

Funciones

  • Funciones de R base:

    • mean()

    • mean(…, trim = …)

    • median()

  • Funciones extras a R base:

    • geometric.mean() de {psych}

Datos para los cálculos

  • Sean el vector de edades:
edad <- c(9, 12, 10, 8, 7, 6)
edad
[1]  9 12 10  8  7  6
  • Sea el vector de hemoglobina:
hb <- c(11.2, 10.4, 9.8, NA, 14, 8.1)
hb
[1] 11.2 10.4  9.8   NA 14.0  8.1

Media aritmética

  • En vector con datos completos:
mean(edad)
[1] 8.666667
  • En vector con datos incompletos:
mean(hb)
[1] NA
  • Es necesario agregar na.rm = TRUE
mean(hb, na.rm = TRUE)
[1] 10.7

Media geométrica

  • Manualemente
exp(log(edad))
[1]  9 12 10  8  7  6
  • Con librería psych
library(psych)
geometric.mean(edad)
[1] 8.445535

Media truncada

  • Solo 5% de ambas colas
mean(edad, trim = 0.05)
[1] 8.666667

Mediana

median(hb, na.rm = TRUE)
[1] 10.4

Medidas de resumen: Posición

  • Son los valores que funcionana como puntos de corte para dividir el rango de datos en intervalos continuos con igual frecuencia.

  • El \(k-ésimo\) \(q-cuantil\) es el valor de los datos donde su función de distribución acumulada cruza \(k/q\).

  • Es decir, \(x\) es el \(k-ésimo\) \(q-cuantil\) para una variable \(X\) si:

\[Pr[X < x] \leq k/q\]

y

\[Pr[X \leq x] \geq k/q \]



  • El nombre del cuantil depende de cuántos grupos se forman.

  • La cantidad de cuantiles es siempre 1 menos.

    • Ejemplo, para formar 4 grupos, necesito solo 3 cortes: 3 cuartiles

  • Hay una lista bastante grande de cuantiles.

  • Los más famosos son:

    • Mediana
    • Terciles
    • Cuartiles
    • Quintiles
    • Deciles
    • Percentiles.
Q-cuantil Nombre del cuantil Número de grupos iguales Número de cuantiles
2-cuantil Mediana 2 1
3-cuantil Terciles 3 2
4-cuantil Cuartiles 4 3
5-cuantil Quintiles 5 4
6-cuantil Sextiles 6 5
7-cuantil Septiles 7 6
8-cuantil Octiles 8 7
10-cuantil Deciles 10 9
12-cuantil Dodeciles 12 11
16-cuantil Hexadeciles 16 15
20-cuantil Ventiles 20 19
100-cuantil Percentiles 100 99
1000-cuantil Permiles o Mililes 1000 999
  • Los cuartiles dividen los datos en cuatro partes iguales

    • Por lo tanto, hay 3 cuartiles.
  • Los gráficos de cajas utilizan los cuartiles para realizar el dibujo de los elementos de la caja.

    • El segundo cuartil es equivalente a la mediana porque contiene el 50% de los datos.

  • Los percentiles dividen los datos en 100 partes iguales

    • Por lo tanto, son 99 percentiles.
  • Se usan para construir infinidad de estadísticos:

    • Tablas de crecimiento, ranking de calificaciones, etc.
  • En inferencia estadística, se usan para establecer

    • Nivel de confianza
    • Nivel de significancia.


Funciones

  • Funciones de R base:

    • quantile(…, probs = …)

Datos para los cálculos

  • Sean el vector de edades:
edad <- c(9, 12, 10, 8, 7, 6)
edad
[1]  9 12 10  8  7  6
  • Sea el vector de hemoglobina:
hb <- c(11.2, 10.4, 9.8, NA, 14, 8.1)
hb
[1] 11.2 10.4  9.8   NA 14.0  8.1

Cuartiles

  • Cuartil 1 (25%)
quantile(edad, probs = c(0.25))
 25% 
7.25 
  • Cuartil 3 (75%)
quantile(edad, probs = c(0.75))
 75% 
9.75 
  • Cuartiles 1, 2 y 3
quantile(edad, probs = c(0.25, 0.5, 0.75))
 25%  50%  75% 
7.25 8.50 9.75 

Percentiles

  • Percentil 67
quantile(edad, probs = c(0.67))
 67% 
9.35 
  • Percentiles del 1 al 99
quantile(edad, probs = seq(0, 0.99, 0.01))
   0%    1%    2%    3%    4%    5%    6%    7%    8%    9%   10%   11%   12% 
 6.00  6.05  6.10  6.15  6.20  6.25  6.30  6.35  6.40  6.45  6.50  6.55  6.60 
  13%   14%   15%   16%   17%   18%   19%   20%   21%   22%   23%   24%   25% 
 6.65  6.70  6.75  6.80  6.85  6.90  6.95  7.00  7.05  7.10  7.15  7.20  7.25 
  26%   27%   28%   29%   30%   31%   32%   33%   34%   35%   36%   37%   38% 
 7.30  7.35  7.40  7.45  7.50  7.55  7.60  7.65  7.70  7.75  7.80  7.85  7.90 
  39%   40%   41%   42%   43%   44%   45%   46%   47%   48%   49%   50%   51% 
 7.95  8.00  8.05  8.10  8.15  8.20  8.25  8.30  8.35  8.40  8.45  8.50  8.55 
  52%   53%   54%   55%   56%   57%   58%   59%   60%   61%   62%   63%   64% 
 8.60  8.65  8.70  8.75  8.80  8.85  8.90  8.95  9.00  9.05  9.10  9.15  9.20 
  65%   66%   67%   68%   69%   70%   71%   72%   73%   74%   75%   76%   77% 
 9.25  9.30  9.35  9.40  9.45  9.50  9.55  9.60  9.65  9.70  9.75  9.80  9.85 
  78%   79%   80%   81%   82%   83%   84%   85%   86%   87%   88%   89%   90% 
 9.90  9.95 10.00 10.10 10.20 10.30 10.40 10.50 10.60 10.70 10.80 10.90 11.00 
  91%   92%   93%   94%   95%   96%   97%   98%   99% 
11.10 11.20 11.30 11.40 11.50 11.60 11.70 11.80 11.90 

Medidas de resumen: Dispersión

  • Medida de la cantidad de variación o dispersión de los datos.

    • Mide dispersión según alejamiento de la media.
  • Es la raíz cuadrada de la varianza.

  • Está en las mismas unidades que la variable.

  • Fórmula:

Sea \(\bar{x}\) la media de los \(n\) datos \(x_1, x_2, ..., x_n\), entonces la varianza está definida por:

\[Var(x) = \frac{\sum_{i = 1}^{n}{(x_i - \bar{x})^2}}{n - 1} \]

Entonces, la desviación estándar de la muestra es:

\[ DE(x) = \sqrt[]{Var(x)} \]

Varianza muestral

  • Con datos completos:
var(edad)
[1] 4.666667
  • Con datos perdidos:
var(hb, na.rm = TRUE)
[1] 4.7

Desviación estándar muestral

  • Con datos completos:
sd(edad)
[1] 2.160247
  • Con datos faltantes:
sd(hb, na.rm = TRUE)
[1] 2.167948
  • Es el tamaño del intervalo más pequeño que contiene a todos los datos.

  • Diferencia entre el valor mínimo y máximo.

  • Fórmula

\[ Rango = min(X) - max(X) \]

Manualmente

  • Con datos completos:
min(edad)
[1] 6
max(edad)
[1] 12
max(edad) - min(edad)
[1] 6

Usando función

  • Con datos completos:
range(edad)
[1]  6 12
  • Con datos faltantes:
range(hb, na.rm = TRUE)
[1]  8.1 14.0
  • Medida de la cantidad de variación de los datos.

  • Es la diferencia entre los percentiles 75 y 25 de los datos.

  • Contiene el 50% central de los datos.

  • El ancho de la caja de un gráfico de cajas es el IQR.

  • Fórmula:

\[ RIQ = Percentil~75 - Percentil~25 \]

Manualmente

  • Calculándolo manualmente
quantile(edad, probs = c(0.25, 0.75))
 25%  75% 
7.25 9.75 
9.75 - 7.25
[1] 2.5
  • Usando algunos atajos:

Podemos almacenar los resultados en objetos

p25 <- quantile(edad, probs = c(0.25))
p25
 25% 
7.25 
p75 <- quantile(edad, probs = c(0.75))
p75
 75% 
9.75 

Luego podemos usar los objetos par hacer el cálculo final:

p75 - p25
75% 
2.5 

Usando función

  • Con datos completos:
IQR(edad)
[1] 2.5
  • Con datos faltantes:
IQR(hb, na.rm = TRUE)
[1] 1.4
  • También conocido como desviación estándar relativa.

  • Medida estandarizada de dispersión expresada como porcentaje.

  • Es la razón de la desviación estandar sobre la media y mide la extensión de la variabilidad en relación a la media

\[ CV = \frac{DE(x)}{\bar{x}} \]

Manualmente

  • Directo
100 * sd(edad) / mean(edad)
[1] 24.92593
  • Paso a paso

Media:

media <- mean(edad)

DE:

sd <- sd(edad)

CV en %

100 * (sd / media)
[1] 24.92593

Usando función

  • No función específica disponible.

  • Existe en funciones que generan varias variables de resumen.

Análisis descriptivo de variable numérica - recomendaciones

  • Media y mediana no son dos medidas que deban entrar en disputa.

    • Ambas cuentan dos historias complementarias sobre el “centro” de los datos.

    • Ambas representan a los datos a su manera.

  • Piensa en lo que quieres hacer

¿Quiero describir mis datos con el “mejor representante” posible?

  • Recuerda el mantra: "Media es más sensible a valores extremos". La distribución de los datos puede ayudar a elegir.

  • Distribuciones sesgadas: La mediana y medidas de posición suelen representar mejor los datos en términos descriptivos.

  • Distribuciones simétricas: Mediana y media son buenas, la media se prefiere por sus propiedades estadísticas e interpretación intuitiva.

¿Quiero comparar medidas de tendencia central para inferir efectos?

  • La media es una buena candidata, sean las distribuciones sesgadas o no.

  • La mediana no es una mala candidata, sin embargo, sus propiedades estadísticas y menor teoría desarrollada limitan actualmente su uso.

¿Quiero usar una medida de resumen para establecer predicciones?

  • La media es una de las más usadas, sean las distribuciones sesgadas o no.

  • La mediana tiene teoría menos desarrollada, pero existen algunas aplicaciones.

  • ¿Tenemos que elegir?

                    No, no tenemos que elegir!!

  • En ensayos clínicos es preferible reportar ambos es más transparente y proporciona más información.

    • Si hay limitaciones de espacio y tablas en cuerpo del artículo, se suele reportar en anexos.
    • Se sugiere hacer lo mismo en estudios observacionales.
    • ¿Por qué no? ¡Todas las revistas permiten anexos! No hay excusas.
  • Tengo limitaciones de espacio y debo elegir una medida en la tabla principal:

    • Elige la opción que mejor se adecue a tu objetivo: describir, explicar, predecir.

    • RECUERDA: Pon en anexos las demás medidas. Es información que podría ser útil para otros fines (p. ej., para calcular tamaño de muestra, evaluar comparabilidad de poblaciones, etc.)

Si objetivo es DESCRIBIR

  • Siempre reporte máximo y mínimo, preferentemente en tabla principal o texto.

    • Es mejor que rango, provee más información.

    • Si problemas de espacio, usar tabla anexa.

  • Media +/- Desviación estándar

    • Cuando meta es describir y la distribución es simétrica y variabilidad es relativamente baja.
    • La distribución normal es un ejemplo de distribución simétrica.
  • Mediana (percentil 25 - percentil 75)

    • Cuando meta es describir y la distribución es asimétrica o variabilidad es relativamente alta.
    • Mejor percentiles 25 y 75 en vez de rango intercuartílico (más informaciónde los primeros)

Análisis de varias variables numéricas

  • Hay varias opciones en R.

  • Las más personalizables se basan en {R base} y {dplyr} (funciones summarise()), pero requieren más código.

    • Usar estas si se necesitan elaborar tablas ad hoc para reportes repropducibles muy sui generis.

    • También son necesarias para gráficos en {ggplot2}

  • Las opciones que requieren poco código y son directas tienen el problema de que no son personalizables:

    • {summarytools}

    • {DescTools}

    • {Hmisc}

    • Usar estas si solo se requiere inspeccionar los datos pero no se hará ningún reporte reproducibl sui generis.

  • El problema con R base es que solo permite generar medidas de resumen una a la vez.

  • Cuando inspeccionamos datos o los describimos necesitamos hacerlo con varias variables simultáneamnente.

  • Podemos hacerlo con otras funciones de R.

  • Hay muchas opciones, veremos algunas que se sustentan en R tidy

  • Podemos usar la función summarise() para solicitar estadísticos de resumen. Se requiere llamar las funciones de R base para medidas de resumen.

Sin etiquetado

bd_inmuno %>% 
  summarise(mean(edad))
# A tibble: 1 × 1
  `mean(edad)`
         <dbl>
1         48.2

Mejor con etiquetado

bd_inmuno %>% 
  summarise(Media = mean(edad))
# A tibble: 1 × 1
  Media
  <dbl>
1  48.2

Varios estadísticos pueden obtenerse

bd_inmuno %>% 
  summarise(
    Media = mean(edad), 
    DE = sd(edad), 
    Mediana = median(edad), 
    `Percentil 25` = quantile(edad, 0.25), 
    `Percentil 75` = quantile(edad, 0.75) 
    )
# A tibble: 1 × 5
  Media    DE Mediana `Percentil 25` `Percentil 75`
  <dbl> <dbl>   <dbl>          <dbl>          <dbl>
1  48.2  14.7      46             36             59

Varias variables pueden analizarse

bd_inmuno %>% 
  summarise(
    `Media de edad` = mean(edad), 
    `DE de edad` = sd(edad), 
    `Mediana de edad` = median(edad),
    Mediana_IgG_Final = median(IgG_Basal, na.rm = TRUE), 
    RIQ_IgG_Final = IQR(IgG_Basal, na.rm = TRUE)
    )
# A tibble: 1 × 5
  `Media de edad` `DE de edad` `Mediana de edad` Mediana_IgG_Final RIQ_IgG_Final
            <dbl>        <dbl>             <dbl>             <dbl>         <dbl>
1            48.2         14.7                46              28.3          88.2
  • Genera un resumen descriptivo bastante detallado de las variables numéricas.
library(summarytools)
  • La función que describe variables numéricas es descr()

Una sola variable numérica

bd_inmuno %>% 
  descr(edad)
Descriptive Statistics  
bd_inmuno$edad  
Label: edad  
N: 285  

                      edad
----------------- --------
             Mean    48.25
          Std.Dev    14.71
              Min    23.00
               Q1    36.00
           Median    46.00
               Q3    59.00
              Max    97.00
              MAD    17.79
              IQR    23.00
               CV     0.30
         Skewness     0.44
      SE.Skewness     0.14
         Kurtosis    -0.39
          N.Valid   285.00
        Pct.Valid   100.00

Todas las variables numéricas

bd_inmuno %>% 
  descr()
Descriptive Statistics  
bd_inmuno  
N: 285  

                      edad       id   IgG_Basal   IgG_Final   tdosis_refuerzo
----------------- -------- -------- ----------- ----------- -----------------
             Mean    48.25   143.00       82.54      492.26            214.47
          Std.Dev    14.71    82.42      122.33       71.15             25.28
              Min    23.00     1.00       -2.19      235.51            134.00
               Q1    36.00    72.00        8.13      447.18            199.00
           Median    46.00   143.00       28.33      501.20            222.00
               Q3    59.00   214.00       96.61      545.15            235.00
              Max    97.00   285.00      583.97      618.44            267.00
              MAD    17.79   105.26       36.80       70.13             22.24
              IQR    23.00   142.00       88.17       97.97             36.00
               CV     0.30     0.58        1.48        0.14              0.12
         Skewness     0.44     0.00        2.14       -0.73             -0.87
      SE.Skewness     0.14     0.14        0.14        0.14              0.14
         Kurtosis    -0.39    -1.21        3.92        0.44             -0.08
          N.Valid   285.00   285.00      284.00      285.00            285.00
        Pct.Valid   100.00   100.00       99.65      100.00            100.00

Solo algunas variables numéricas

bd_inmuno %>% 
  select(edad, IgG_Basal) %>% 
  descr()
Descriptive Statistics  
bd_inmuno  
N: 285  

                      edad   IgG_Basal
----------------- -------- -----------
             Mean    48.25       82.54
          Std.Dev    14.71      122.33
              Min    23.00       -2.19
               Q1    36.00        8.13
           Median    46.00       28.33
               Q3    59.00       96.61
              Max    97.00      583.97
              MAD    17.79       36.80
              IQR    23.00       88.17
               CV     0.30        1.48
         Skewness     0.44        2.14
      SE.Skewness     0.14        0.14
         Kurtosis    -0.39        3.92
          N.Valid   285.00      284.00
        Pct.Valid   100.00       99.65

Solo algunos estadísticos

bd_inmuno %>% 
  descr(edad, 
        stats = c("mean", "sd", "min", "max"))
Descriptive Statistics  
bd_inmuno$edad  
Label: edad  
N: 285  

                 edad
------------- -------
         Mean   48.25
      Std.Dev   14.71
          Min   23.00
          Max   97.00
  • El paquete {Hmisc} genera un reporte de resultados similar al de summarytools.
library(Hmisc)
  • La función describe() del paquete {Hmisc} genera un reporte con los principales estadísticos de resumen:

Modo R base

describe(bd_inmuno$edad)
bd_inmuno$edad : edad  Format:%10.0g 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     285        0       60    0.999    48.25    16.72       28       31 
     .25      .50      .75      .90      .95 
      36       46       59       68       72 

lowest : 23 24 25 26 27, highest: 78 79 92 94 97

Modo R tidy

bd_inmuno %>% 
  pull(edad) %>% 
  describe()
. : edad  Format:%10.0g 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     285        0       60    0.999    48.25    16.72       28       31 
     .25      .50      .75      .90      .95 
      36       46       59       68       72 

lowest : 23 24 25 26 27, highest: 78 79 92 94 97

¿Cómo interpretar ….

  • La media aritmética es una medida que trata de resumir los datos de una variable numérica en un solo valor.

    • La idea de la media es que este valor represente o sea el delegado de todos los datos.
    • Podemos pensar la media como el valor más probable que tendría cada individuo si no supieramos qué valores realmente tienen: “si no sabes qué valor tiene, apuesta por el promedio”.
  • Propiedad interesante: Es la medida que más cerca está de todos los datos.

    • En promedio, el desvío de la media respecto a los datos es nulo.
  • En la práctica, solo se reporta como promedio, sin más interpretación (esta es tácita).

       “La edad media fue de 34 años (…)”

Ejemplo

  • Tenemos cuatro notas del curso de Bioestadística: 15, 20, 17 y 12.
  • El promedio de estas notas es 16.

  • Cada nota se desvía del promedio en lo siguiente:

notas promedio_notas desvio_notas desvio_promedio
15 16 -1 0
20 16 4 0
17 16 1 0
12 16 -4 0

Mediana

  • Puede dejarse tácita la interpretación (lo más común):

         “La mediana de edad fue de 35 años (…)”

  • Como representa el 50% de los datos, también puede interpretarse como (para enfatizar un hallazgo relevante):

         “La mitad de los participantes tuvieron niveles de
         hemoglobina por debajo de 10.2 mg/dl (…)“

Percentiles 25 y 75

  • Puede dejarse tácita la interpretación (lo más común):

         “La mediana de edad fue de 35 años
         (20 años - 54 años) (…)“

  • Como representan % conocidos, también puede interpretarse como (para enfatizar un hallazgo relevante):

         “El 25% de los participantes tuvieron menos de 20
         años y el 75% menos de 54 años (…)“

Varianza

  • No se suele interpertar.

  • Debido a que está en unidades al cuadrado no se suele reportar, se prefiere a la desviación estándar.

Desviación estándar

  • No se suele interpretar, solo reportar.

  • Lo que implica que su interpretación/significado es tácito.

  • Es la medida de dispersión que acompaña por defecto a la media:

         “La edad media (desviación estándar) fue de 35
         años (23 años) (…)“

Rango

  • Es preferible reportar los valores mínimo y máximo.

  • A menudo se parafrasea:

         “La edad media (desviación estándar) fue de 35
         años (23 años) y varió entre 19 y 54 años (…)“

Rango intercuartílico

  • Es preferible reportar el percentil 25 y 75, no la diferencia: Da más información.

  • Se parafrasea como el ejemplo de los percentiles 25 y 75.

  • También se puede parafrasear de la siguiente manera:

         “La mediana de edad fue de 35 años
         y la mitad de los participantes tuvo
         entre 20 años y 54 años (…)“

Coeficiente de variación

  • Cuando se reporta, no se suele interpretar (es tácito).

  • Sin embargo, podemos hacer una valoración ‘cualitativa’ del valor para algun interpretación.

  • Algunas reglas del pulgar (según INEI, Perú):

    • \(CV < 5\%\) : Poca variabilidad
    • \(5\% \leq CV \leq 10\%\): Variabilidad regular
    • \(CV > 10\%\): Alta variabilidad (aquí podría ser mejor describir usando medidas de posición)

Nuestro turno


  • Descargue la carpeta var_num_resumen.

  • Abra el proyecto var_num_resumen.Rproj y dentro de este, abra el archivo quarto var_num_resumen_taller.qmd.

  • Siga las instrucciones indicadas en este.

  • Renderice el archivo quarto final.




10:00